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摘 要 项 目 增补 (Item Replenishing) 对 认 知 诊断 计算 机 自 适应 测验 (CD-CAT) 题 库 的 维护 有 背 
至 关 重 要 的 作用 , 而 在 线 标定 是 一 种 重要 的 项 目 增补 方式 。 基 于 数据 挖掘 中 特征 选择 (Feature 
Selection) 的 思路 ， 提 出 一 种 高 效 的 基于 炉 的 信息 增益 的 在 线 标定 方法 ( 记 为 IGEOCM)， 该 方 
法 利用 被 试 在 新 旧 题 上 的 作答 联合 估计 新 题 的 2 矩阵 和 项 目 参 数 。 研 究 采 用 Monte Carlo 模 拟 
实验 验证 所 开发 新 方法 的 效果 ， 并 同时 与 已 有 的 在 线 标定 方法 SIE (Chen etal.,2015)、SIE-R- 
BIC 和 RMSEA-N ( 谭 青 蓉 ，2019) 进 行 比较 。 结 果 表 明 : 新 开发 的 IGEOCM 在 各 实验 条 件 下 均 
具有 较 好 的 项 目标 定 精度 和 项 目 估 计 效 率 , 且 整 体 上 优 于 已 有 的 SIE 等 方法 ; 同时 , IGEOCM 
标定 新 题 所 需 的 时 间 低 于 SIE 等 方法 。 总 之 , 研究 为 CD-CAT 题 库 中 项 目的 增补 提供 了 一 种 更 
为 高 效 、 准 确 的 方法 。 
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测评 技术 与 计算 机 技术 的 持续 发 展 , 使 得 大 众 不 仅 追 求 测验 的 效率 , 更 追求 
综合 性 的 测验 结果 ， 而 不 仅仅 是 笼统 的 测验 总 分 。 人 们 渴望 获取 详实 且 全 面 的 测 
验 结果 , 使 其 能 根据 该 结果 对 自身 在 所 测 内 容 领 域 上 的 强 弱 进行 系统 评估 ， 了 解 
需 改进 或 完善 的 地 方 ， 从 而 制定 进一步 的 学 习 计 划 。 认 知 诊断 计算 机 自 适应 测 
验 (Cognitive Diagnostic Computerized Adaptive Testing, CD-CAT) 是 认 知 诊断 
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(Cognitive Diagnostic, CD) it SEL A 3& Wi Wl] J (Computerized Adaptive Testing, 
CAT) 相 结合 的 产物 , 其 在 提高 测验 效率 和 准确 性 的 同时 , 可 为 被 试 提供 在 所 测 内 
容 领 域 上 优 缺 点 的 详细 诊断 (Wang, 2013; Weiss, 1982)。 因 此 ， 可 根据 被 试 的 诊断 
结果 对 其 薄弱 知识 点 进行 针对 性 地 教学 补救 , 较 好 地 满足 了 当今 大 众 对 于 高 效 且 
周密 的 测验 的 需求 ， 有 着 广泛 的 应 用 前 景 (Leighton et al., 2004; Liu et al., 2013). 
CD-CAT 使 用 的 前 提 是 已 建构 好 的 题库 。 但 是 题库 中 的 部 分 题目 会 随时 间 的 
流逝 过 度 上 曝光 或 变 得 过 时 ， 这 时 需 使 用 新 题 对 这 些 题 目 进 行 蔡 换 或 者 增补 (Chen， 
2017)。 具 体 来 说 ， 需 邀请 有 经 验 的 领域 专家 和 心理 测量 学 家 根据 诊断 目的 编制 
新 题 ， 然 后 估计 新 题 的 参数 ， 并 将 其 与 题库 中 的 旧 题 置 于 同一 量 尺 之 上 。 在 线 标 
定 技术 是 传统 CAT 中 一 种 有 效 的 项 目 增补 方法 ， 它 是 指 在 测验 过 程 中 ， 让 被 试 
同时 作答 新 题 与 旧 题 , 然后 根据 其 作答 标定 新 题 参数 的 过 程 ， 且 施 测 者 需 告知 被 
试 他 们 作答 的 部 分 项 目 将 不 用 于 最 终 能 力 的 评估 ( 陈 平 , 辛 涛 , 2011a)。 相 比 于 传 
统 的 项 目 增补 方法 , 在 线 标定 技术 的 优点 在 于 : (1) 无 需 复 杂 的 事后 等 值 技 术 便 
将 新 旧 题 的 参数 置 于 同一 量 尺 之 上 (Chen & Wang, 2015); (2) 无 需 外 部 标定 研究 
便 能 在 估计 被 试 能 力 的 同时 标定 新 题 的 参数 , 可 节省 大 量 人 力 和 物力 ; (3) 相 同 的 
测量 模式 使 得 被 试 在 作答 新 旧 题 时 具有 相同 的 动机 (Chen et al., 2012). 12 SAE, 
在 单 维 计算 机 自 适 应 测验 (Unidimensional Computerized Adaptive Testing, UCAT) 
和 多 维 计算 机 自 适 应 测验 (Multidimensional Computerized Adaptive Testing, MCAT) 
领域 ， 研 究 者 已 推荐 了 多 种 高 效 的 在 线 标定 方法 (Chen, 2017)。 在 UCAT #, 
Stocking (1988) 提 出 方法 A (Method A) 和 方法 B (Method B), Wainer 和 Mislevy 
(1990) 推 荐 一 个 EM 循环 的 边际 极 大 似 然 估计 方法 (OEM)， 随 后 Ban 等 人 (2001) 
提出 多 个 EM 循环 的 边际 极 大 似 然 估 计 方 法 (MEM) 以 及 BILOG/ 先 验方 法 
(BILOG/Prior method)。 此 外 ， 为 克服 Method A 方法 将 估计 能 力 值 当 做 被 试 能 
真 值 的 理论 缺陷 ， 陈 平 (2016) 提 出 了 FFMLE-Method A fll ECSE-Method A 方法 。 


在 MCAT F, Chen 等 人 (2017) 对 Method A, OEM 和 MEM 方法 进行 拓展 ， 称 其 


为 M-Method A, M-OEM 和 M-MEM。 日 在 M-OEM 和 M-MEM 方法 的 基础 上 


推荐 M-OEM-BME 和 M-MEM-BME 方法 以 用 于 MCAT 中 项 目 参 数 的 标定 (Chen， 
2017)。 
然而 ， 目 前 CD-CAT 中 关于 在 线 标 定 方法 的 研究 较 少 ， 主 要 包含 了 两 大 类 。 


第 一 类 方法 主要 有 Chen 等 人 (2012) 提 出 的 CD-Method A, CD-OEM 与 CD-MEM 方 
法 ， 其 基于 Method A, OEM 与 MEM 提 出 。 这 类 方法 在 标定 新 题 时 ， 假 设 新 题 的 O 
矩阵 已 知 ， 仅 标定 新 题 的 项 目 参 数 。 事 实 上 ，9@ 和 矩阵 作为 认 知 诊断 的 核心 成 分 ， 
在 多 数 情况 下 都 是 未 知 的 。 实 际 中 ，2@ 和 矩阵 多 由 内 容 领 域 专家 和 测量 学 专家 共同 
界定 ， 需 耗费 大 量 的 人 力 和 物力 ， 且 由 专家 界定 的 0 和 矩阵 容易 受到 主观 因素 的 影 
响 而 造成 界定 错误 。 而 2 和 矩阵 的 错误 界定 最 终 会 影响 项 目 参数 的 估计 精度 与 被 试 
的 分 类 正确 性 (de la Torre & Chiu, 2016; Rupp & Templin, 2008)。 因 此 ， 第 二 类 在 
线 标定 方法 应 运 而 生 ， 其 同时 标定 新 题 的 2 矩阵 与 项 目 参数 ， 以 期 减少 项 目标 定 
所 耗费 的 人 力 物 力 , 提高 项 目标 定 效率 。 陈 平和 辛 涛 (2011b) 提 出 的 联合 估计 算法 
(Joint Estimation Algorithm, JEA), Chen 等 人 (2015) 提出 的 SIE (Single-Item 


Estimation) 方 法 以 及 谭 青 项 (2019) 提 出 的 SIE-R-BIC 和 RMSEA-N 等 方法 均 属 于 该 
类 方法 。 正 A 方法 借鉴 项 目 反 应 理论 (Item Response Theory, IRT) 中 被 试 参数 与 项 
目 参 数 的 联合 极 大 似 然 估 计 (Joint Maximum Likelihood Estimation, JMLE) 思 路 ， 
将 CD-CAT 中 被 试 的 属性 掌握 模式 估计 值 视 为 被 试 属性 掌握 模式 真 值 ， 然 后 基于 
被 试 属性 掌握 模式 估计 值 以 及 被 试 在 新 题 上 的 作答 使 用 极 大 似 然 估 计 (Maximum 
Likelihood Estimation, MLE) 的 方法 来 联合 估计 新 题 的 O 窍 阵 和 项 目 参数 。 不 同 于 
JEA 方 法 , SIE 使 用 属性 掌握 模式 的 后 验 分 布 来 代 蔡 属性 掌握 模式 估计 值 , 计算 每 
一 个 被 试 的 后 验 预测 分 布 , 然后 使 用 MLE 来 估计 新 题 的 O 和 矩阵。 与 此 同时 ，SIE 方 
法 中 运用 EM 算法 来 估计 新 题 的 项 目 参数 。SIE-R-BIC 方 法 是 在 SIE 方 法 的 基础 上 
提出 ， 其 标定 新 题 时 充分 利用 了 题库 中 已 有 项 目的 信息 ， 而 RMSEA-N 方 法 通过 
评估 观察 作答 分 布 与 期 望 作答 分 布 间 的 一 致 性 来 标定 新 题 ( 谭 青 敬 , 2019)。 相 比 
于 JEA 方 法 , SIE、SIE-R-BIC 和 RMSEA-N 方 法 在 2 矩阵 标定 精度 上 有 一 定 的 提升 ， 
而 在 标定 效率 上 , 各 方法 均 耗 时 较 长 ， 新 题 标定 效率 相对 较 低 。 因 此 , 在 CD-CAT 
情境 下 ， 开 发 能 提升 新 题 标定 精度 和 标定 效率 的 方法 是 极为 必要 的 。 

数据 挖掘 作为 数据 库 和 人 工 智 能 领域 研究 的 热点 问题 , 其 面临 的 首要 问题 是 
如 何 才能 从 海量 数据 中 获得 有 效 信 息 ， 从 而 达到 数据 信息 的 高 效 利用 
(Chandrashekar & Sahin, 2014)。 特 征 选择 (Feature Selection) 是 有 效 的 解决 方法 之 
一 ,其 可 通过 删除 数据 中 元 余 或 无 关 的 特征 ， 从 海量 的 数据 中 选择 最 为 有 效 的 特 
征集 ， 以 达到 提高 分 类 准确 率 以 及 效率 的 目的 (Guyon & Elisseeff, 2003)。 特 征 选 


择 过 程 中 极为 重要 的 一 环 是 特征 选择 标准 , 其 通过 衡量 特征 与 分 类 之 间 的 关系 来 
删除 数据 中 的 无 关 特 征 。 特 征 选择 中 使 用 信息 增益 、 互 信息 、 归 一 化 互信 息 以 及 
条 件 互信 息 等 作为 特征 选择 标准 , 这 类 标准 通过 评估 特征 的 分 类 准确 性 来 选择 最 
佳 的 特征 (Fleuret 2004; Lee et al., 2012; Hoque et al., 2014; Pereira et al., 2015)。 特 
征 对 被 试 的 分 类 越 精确 ,， 则 选择 该 特征 的 可 能 性 越 高 ， 若 特征 对 被 试 的 分 类 相当 
于 随机 水 平 ， 则 选择 该 特征 的 可 能 性 越 低 。 

受 数据 挖掘 中 特征 选择 的 启发 ， 提 出 如 下 逻辑 假设 : 在 CD-CAT 中 标定 新 题 
时 ， 可 利用 特征 选择 方法 来 标定 新 题 的 2 矩阵 ， 并 基于 该 2 矩阵 来 估计 新 题 项 目 
参数 。 将 新 题 所 有 可 能 的 g 向 量 视 为 待 选择 的 特征 ， 在 被 试 属性 掌握 模式 已 知 的 
情况 下 ， 通 过 特征 选择 标准 评估 每 一 个 可 能 q 向 量 对 被 试 分 类 的 效果 ， 然 后 选择 
能 使 特征 选择 标准 最 佳 的 g 向 量 作 为 新 题 的 gq 向量 。 基 于 该 假设 , 研究 提出 一 种 新 
的 CD-CAI 在 线 标定 方法 ， 该 方法 基于 特征 选择 方法 联合 在 线 标定 新 题 的 0 矩阵 
和 项 目 参 数 (该 方法 的 基本 过 程 、 思 路 及 公式 等 将 在 文章 第 3 部 分 详细 介绍 ), 以 期 
为 CD-CAT 在 线 标定 提供 新 的 视角 及 新 的 方法 ， 从 而 进一步 推动 认 知 诊断 尤其 是 
CD-CAI 在 实践 中 的 发 展 与 应 用 。 


2 已 有 在 线 标定 方法 


目前 ，CD-CAT 中 同时 标定 新 题 O 矩阵 和 项 目 参 数 的 在 线 标定 方法 主要 有 
JEA ( 陈 平 ， 辛 涛 , 2011b), SIE (Chen et al., 2015), SIE-R-BIC 和 RMSEA-N 方法 
CHAA, 2019). SIE 方法 基于 JEA 方法 在 决定 型 输入 噪音 与 门 模型 (the 
Deterministic Input, Noisy and Gate Model, DINA; Junker & Sijtsma, 2001) 下 提出 ， 
其 标定 新 题 时 考虑 了 被 试 属 性 掌握 横 式 的 估计 误差 ， 在 标定 新 题 O 矩阵 和 项 目 
参数 时 充分 利用 被 试 的 属性 掌握 模式 后 验 分 布 。 

SIE 方法 标定 新 题 时 包含 了 O 矩阵 标定 和 项 目 参 数 标定 的 两 个 部 分 。 对 于 新 
18i O 矩阵 的 标定 , 首先 基于 被 试 在 旧 题 上 的 作答 计算 作答 了 新 题 j 的 被 试 的 属性 
掌握 模式 后 验 分 布 。 随 后 , 根据 被 试 属性 掌握 模式 后 验 分 布 及 每 种 属性 掌握 模式 
在 q 向 量 为 gj; 的 新 题 | 上 的 正确 作 管 概率 计算 具有 某 一 特定 作答 Ry 的 被 试 i 的 
后 验 预测 分 布 : 


—= 


Qk 
PÁ(25,g,5;) = P(Ry =114;,8555;) = S 5 miler.) P/(a,g;,5;,0) , (1) 
c=1 


其 中 为 测验 测量 的 属性 个 数 ，xti(a) 表 示 被 试 i 的 属性 掌握 模式 为 a 的 概率 ， 


其 基于 被 试 i 在 旧 题 上 的 作答 计算 ，P;(g;,g;,s;,Q) 表 示 DINA 模型 下 属性 掌握 模 


式 为 ae 的 被 试 在 项 目 上 的 正确 作答 概率 。 最 后 ， 结 合 被 试 后 验 预 测 分 布 及 其 在 


新 题 上 的 作答 Ry 构建 似 然 并 最 大 化 似 然 函数 来 估计 新 题 的 g 向 量 ， 其 表达 式 
如 下 : 


à; _ argmax L,(q;,g;,8;) = argmax{] | P(qj,gj,5;) BH = P(a;,g,5)] E (2) 
4; €Q; inn 


其 中 Q; —2* —1 RAN Pay 所 有 可 能 gq 向 量 的 集合 。 此 外 ，SIE 方法 使 用 EM 52 
法 来 估计 新 题 的 项 目 参数 。 

SIE-R-BIC 方法 在 SIE 方法 的 基础 上 考虑 了 模型 的 复杂 性 , 其 估计 新 题 O FE 
阵 时 构建 了 BIC 指标 并 通过 最 小 化 BIC 指标 来 估计 新 题 g 向 量 ， 表 达 式 如 下 所 


ZN: 


qi = argmin BIC (dEn) = ee [L(gq;,g;,5;) + Mog(nj)]; (3) 
其 中 Alog (nj) RAN EU RRIEK, A RANA BRIT, n RATE A ors 
7 的 被 试 人 数 。 与 此 同时 ，SIE-R-BIC 方法 在 标定 新 题 项 目 参 数 时 利用 了 题库 中 
己 有 项 目的 信息 , 也 即将 题库 中 和 新 题 具 有 相同 9 癌 量 的 旧 题 的 项 目 参数 均值 作 
为 新 题 的 项 目 参 数 初 始 值 。 RMSEA-N 方法 中 项 目 参数 的 标定 与 SIE-R-BIC 方法 
一 致 ,但 其 通过 评估 观察 作 管 分 布 与 期 望 作 管 分 布 间 的 一 致 性 来 标定 新 题 的 O 算 
阵 。 有 具体 来 说 ,选择 能 使 观察 作答 分 布 与 期 望 作答 分 布 间 一 致 性 程度 最 高 的 qt I] 
量 作为 新 题 j 的 估计 9 向 量 ， 其 公式 如 下 : 


2K 
Qi = argmin RMSEA ~~ N(q;,g;,5;) = gnin Y” p(a.) [P N oxpecteal e) ~~ P_Nobsscrved( Qe) | ? ? (4) 
GEQ; GEQ; c-1 


HP pla) 表示 第 c 个 属性 掌握 模式 ae 的 被 试 边际 概率 ， 已 Neoeuca(a) 和 


已 Nusonea(ao) 分 别 表示 第 c 个 属性 掌握 模式 a. 下 标准 化 的 期 望 正确 作答 概率 和 观 


察 正 确 作答 概率 。 


3 SEP WAY fea SUR I FEZ hp XE 771 (IGEOCM) 


3.1 RPE TTA RET fei Se a 


数据 挖掘 中 ， 特 征 选择 的 目的 之 一 在 于 选择 对 数据 具有 高 区 分 能 力 的 特征 ， 
若 基 于 某 一 特征 的 分 类 与 随机 分 类 的 结果 大 同 小 异 , 则 说 明 这 一 特征 对 于 数据 的 
分 类 效果 较 小 ( 李 航 , 2012). FEF SIT fi I aii (Information Gain of Entropy-based, 
IGE) 是 特征 选择 中 的 一 个 特征 选择 准则 , SERIE TA I 3E i a 
BOA, 则 其 对 于 数据 的 分 类 能 力 越 强 (Pereira et al., 2015). SEF AGS IM 28 EE 
最 优 特征 的 过 程 如 下 : 

DEZ, MERE R 以 及 对 该 数据 集 进行 分 类 的 特征 。 

(2) 然 后 ， 计 算数 据 集 R BAR 


E(R) = 2. i. log - , (5) 


ERF, n 为 数据 集 RR 的 样本 量 , x 表示 数据 集 R 中 的 类 别 ，n NEHER R 中 属 
于 第 x 个 类 别 的 样本 量 。 炉 用 于 评估 数据 集 R 的 不 确定 性 程度 ， 其 值 越 大 ， 数 据 
f& R 的 不 确定 性 程度 越 大 。 不 确定 性 程度 指数 据 集 R 中 被 试 的 一 致 性 程度 ， 知 
数据 集 R 中 的 被 试 均 属 于 同一 个 类 别 ， 则 不 确定 性 程度 最 低 。 
(3) 随 后 ， 计 算 某 一 特征 A 对 数据 集 R EG 
E(RIA) = > B welog te), (6) 
其 中 , H NIIE A 的 取 值 个 数 , ni 表示 数据 集 R PRT h PRAISES, 


nn 表示 数据 集 R PR hi ARAM P. BOB T S x TSR AIBC ARE AAP 
评估 给 定 某 一 特征 (4) 的 情况 下 ， 数 据 集 R BUT ETERERE. tS S6 RPS 
的 值 越 大 ， 数 据 集 R 的 不 确定 性 程度 越 大 ， 则 基于 特征 4 的 分 类 效果 越 差 。 
(aa, SAS BS one 
g(R,A) = E(R) — E(RIA). (7) 


Ais D^] fei ISS a g CR, A) AN SARE 25. SR ANTES ERIE A 的 信息 的 情 
况 下 ， 数 据 集 R 的 不 确定 性 减少 的 程度 。 其 值 越 大 ， 说 明基 于 特征 4 的 分 类 效 
果 越 好 。 

(5) 对 于 所 有 特征 ， 重 复 (3) 和 (4)， 比 较 各 特征 的 炉 信息 增益 值 。 选 择 具有 最 
大 的 炉 信 息 增益 值 的 特征 作为 最 优 特 征 。 

炉 的 信息 增益 的 大 小 取决 于 数据 集 R ICE RAEE A 对 数据 集 R 的 条 


件 炉 (BZ(RI4A))。 由 公式 (5) 可 看 出 ， 数 据 集 R 的 燃 值 的 计算 与 特征 无 天 ， 换 句 话 


说 ， 所 有 特征 下 数据 集 R 的 粹 (BZ(R)) 均 保持 不 变 。 因 此 ， 基 于 粹 的 信息 增益 选 
择 特征 本 质 上 是 基于 条 件 烂 选择 特征 , SEEM BSE RAR PD, 则 该 
特征 的 分 类 效果 越 好 ， 该 特征 更 有 可 能 是 数据 集 的 最 优 特征 。 

新 题 j 的 g 向 量 估 计 可 视 为 一 个 特征 选择 问题 , 即 从 所 有 可 能 的 g 向 量 中 为 
新 题 j 选择 一 个 最 佳 9 向 量 。 将 被 试 在 新 题 / 上 的 作答 看 作 数 据 集 R， 新 题 j 所 
有 可 能 的 9 向 量 看 作 特 征 , 基于 9 向 量 和 被 试 的 估计 属性 掌握 模式 对 被 试 进行 分 
类 ， 则 能 使 被 试 分 类 的 不 确定 性 程度 达到 最 低 的 9 向 量 为 作答 数据 集 R 的 最 优 
特征 ， 因 此 可 选择 该 q 向 量 作 为 新 题 j 的 估计 gq 向 量 。 基 于 该 思路 ， 提 出 新 的 在 
线 标定 方法 一 基于 烂 的 信息 增益 的 在 线 标定 方法 (Information Gain of Entropy- 
based Online Calibration Method, IGEOCM), i277 13:5 FURAN [ei IM a 2E T 
题 的 O 矩阵， 同时 使 用 EM 算法 来 标定 新 题 的 项 目 参数 。 


3.2 EF SERM SS S FE i FE TET 


DINA 作为 广泛 应 用 的 认 知 诊断 模型 之 一 ， 在 每 个 项 目 上 均 只 有 失误 参数 
和 猜测 参数 这 两 个 简单 且 易 于 解释 的 项 目 参数 ， 且 常 被 用 于 CD-CAT 题库 的 构 
建 及 在 线 标 定 (Junker & Sijtsma, 2001; Liu et al., 2013)。 为 了 便于 说 明 问 题 以 及 与 
国外 同类 方法 (SIE 方法 ) 进 行 比较 ， 以 DINA 模型 为 例 来 说 明基 于 炉 的 信息 增益 
的 在 线 标定 方法 IGEOCM) 标 定 新 题 的 基本 思路 及 其 过 程 。 


32.1 IGEOCM 中 的 O 矩阵 标定 


Srl Pr d Set RET K ORIN, Brel 7 ATA AY BER q ee 332^ — 1, 
其 中 不 包含 元 素 全 为 0 的 向 量 。 从 特征 选择 的 视角 ， 新 题记 的 q 向 量 估计 便 是 从 
2” 一 1 种 可 能 q 向 量 中 选择 最 合适 的 一 个 q 向 量 作为 新 题 j 的 估计 q 向 量 。 
IGEOCM 中 基于 灼 信息 增益 这 一 特征 选择 ;准则 来 估计 新 题 太 的 q 向 量 , 其 表达 
式 如 下 所 示 : 


9(R;,9;) = E(R;) E E(Rjla;) 


1 1 1 
— To jg To jg Nin ihe ihe 
= log | | | log ) > (8 
D: nj 2521258 Nin (8) 


T=0 jh 


RP, Ry = (By,…,Rj) 表 示 %j 个 被 试 在 新 题 ; 上 的 作 管 反 应 向 量 , 即 新 题 / 上 的 被 


试 作答 数据 集合 。n; 表 示 作 答 了 新 题 ) 的 被 斌 人数 ，x 表 示 被 试 在 项 目 i 上 的 得 分 ， 
二 级 计 分 下 ，x=0 或 x=1。njs 表 示 作 答 了 新 题 ) 的 nj 个 被 试 中 在 新 题 ) 上 得 分 为 x 的 
被 试 人 数 。7 表 示 基 于 4 同 量 对 被 试 进行 分 类 的 类 别 。DINA 模 型 中 ， 基 于 被 试 的 
属性 掌握 模式 与 项 目的 g 向 量 可 将 被 试 划分 为 2 个 类 别 (=1 或 上 =0)， 即 掌握 组 与 非 
掌握 组 。 掌 握 组 被 试 掌握 了 项 目测 量 的 所 有 属性 ， 非 掌握 组 被 试 在 项 目 所 测量 的 
属性 中 至 少 有 一 个 属性 未 掌握 。? 关 表示 作答 新 题 /的 必 个 被 试 中 属于 第 2 个 类 别 


的 被 试 人 数 。m 因 表示 作答 新 题 / 且 属于 第 1 个 类 别 的 mz 个 被 试 中 在 新 题 / 上 得 分 为 


x 的 被 试 人 数 。 对 于 新 题 /的 所 有 可 能 4 回 量 , 作答 新 题 /的 被 试 人 数 (wj) 以 及 每 个 被 
试 在 新 题 /上 的 得 分 x 都 是 不 变 的 。 因 此 , 基于 炉 的 信息 增益 标定 新 题 9 向 量 的 本 质 
在 于 ， 在 新 题 j 的 gq 向量 未 知 的 情况 下 ， 选 择 能 使 条 件 米 (Rjlg; ) 最 小 的 4 向 量 作 
为 新 题 / 的 估计 94 向量， 其 表达 式 为 : 


d, = argmin (E (ta; )). (9) 


在 被 试 属性 掌握 模式 已 知 的 情况 下 ( 即 CD-CAT 中 基于 被 试 在 旧 题 上 的 作答 
估计 属性 掌握 模式 )， 若 新 题 /的 9 向 量 正确 且 被 试 在 新 题 /上 的 作答 不 存在 失误 和 
博 测 ， 那 么 基于 正确 向 量 分 类 后 掌握 组 中 的 所 有 被 试 在 新 题 上 的 观察 得 分 都 应 
为 1， 而 非 掌握 组 中 的 被 试 在 新 题 /上 的 观察 得 分 都 应 为 0。 此 时 ,掌握 组 与 非 掌握 
组 中 的 被 试 都 具有 高 度 一 致 性 , 不 确定 程度 最 小 , 所 获得 的 条 件 粹 B(Rjlq,) 最 小 ， 
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fi E ag (R,q;) BK, 因此 正确 z 向 量 的 分 类 效果 最 好 。 若 被 试 的 属性 掌握 模式 


三 | 


为 均匀 分 布 且 被 试 在 新 题 / 上 的 作答 不 存在 失误 和 猜测 , 新 题 /的 g 辐 量 正 确 和 错误 


情况 下 B(Rjlg;) 和 g(R;,q;) 的 变化 如 表 1 所 示 。 


表 1 不 同 q 向 量 下 (Rjl9;) 和 g(R;,q;) 的 计算 


掌握 组 非 掌 握 组 E(Rja;) 9 (Rig) 
[100] [110] [000] [101] 
属性 掌握 模式 
[101] [111] [001] [011] 
gete = [100] 被 试 数目 n;/2 n,/2 0 0.690 
正确 作答 比 1 0 
错误 作答 比 0 1 


[000] [100] [010] 


属性 掌握 模式 [011] [111] 
[001] [110] [101] 


geom = [011] 被 试 数目 n,/4 3n,/4 0.690 
正确 作答 比 0.500 0.500 
错误 作答 比 0.500 0.500 


IGEOCM Fitr IMR (9, = argmin (E (2a; ))) 估计 新 题记 的 9 向 
GEQ; 


量 的 合理 性 证 明 如 下 : 


E(RJa;) = | 5 » 24: log 2d) 


h-0 "I \z=0 "Jh 


B E (hog m | Njoi log") | Ti (Stag Tun | wog |， (10) 
a 


nj \ Njo Njo Njo Njo Dj \ Nj nj nj Nji 


在 DINA BUB P, s,— fae Cnj REEDA j T] n; T ico 8 SA AY 


WRAZ nas TERUEL; 上 且 属 于 掌握 组 的 mi 个 被 试 中 在 新 题 / 上 得 分 为 0 


的 被 试 人 数 )， 包 = Den (no 表示 作答 新 题 7 的 必 个 被 试 中 属于 非 掌 握 组 的 被 斌 


n 


人 数 ，no RAVES HA j LRT HESEIEZH BU jo PORE Bl j 上 得 分 为 1 的 


被 试 人 数 )， 将 其 代入 BRlo)， 可 得 


0.003 


E(Rjg;) =- (aoa) 十 (&)log(;)) 十 e (Glos + 0-aog(- 训 | (11) 


XY E(Rilg;) BBORAF 5; 818; PBL, JE CSET O, 


ðE (Rylq;) na ( 8; OE(Rjg) | m, 8; 
: = l j- =0 Ji) 一 jo 了 = 
08; nj; 951-8, i 08; nj (os "s e 
TERM AA ^ " 1 
it ave Hg, =3,= > HT 
0’ E(Rjq;) a E 1 ) 0’ E(R,lq;) nio {1 1 
: = — X 7 <0 AG) 一 jo 
08; n; V8; 1—8; d 0g n; 全 à era 39d s, 


WERTE g; = 二 请 处 取得 最 大 值 。 4 3,,8;€ (0, 0.5) 时 ，E(Rjg,) 单 调 递增 。 


男 外， 根据 Yu 和 Cheng (2020) 的 研究 ， 当 nj — oo, ， 属 性 掌握 模式 已 知 ， 且 
8,8;€ (0,0.5) 时 ， 以 下 等 式 成 立 : 
edgy") agi"), Bg) Sekar). (14) 
因此 , 在 被 试 的 属性 掌握 模式 以 及 被 试 在 项 目 } 上 的 作答 已 知 , $;,&;€ (0, 0.5) 
的 情况 下 ,新 题 j 的 g In fi DI hae) MER ERAT: 6, = argmin (GE CR; ))。 


与 此 同时 ， 附 录 中 【 例 1】 通 过 举例 进一步 说 明了 IGEOCM e NEAR TEARS TERT 
BU g 向 量 的 合理 性 。 


3.2.2 IGEOCM 中 的 项 目 参数 标定 


IGEOCM 方 法 中 使 用 EM 算法 来 估计 新 题 的 项 目 参 数 , EM 算法 在 每 一 次 迭代 
中 都 包含 期 望 步骤 (Expectation Step, E-step) 和 最 大 化 步骤 (Maximization Step, M- 
step) 两 步 (Chen et al., 2015)。 在 E-step 中 ， 首 先 基于 被 试 在 新 题 } 上 的 作答 Ry 计算 
每 个 被 试 的 后 验 分 布 ， 其 公式 如 下 : 
Te) Pay 85,5,,0) =P Unina] 7t 


S > mila) P085,850.) æf] m P(gq;, gj;,5;, Xe)] is 
c=1 


Post;(a.) = 


(15) 


然后 ， 基 于 nj 个 被 试 在 新 题 上 的 作答 向 量 R; 和 每 个 被 试 属性 掌握 模式 的 后 验 分 


布 ， 假 设 凡 个 被 试 在 新 题 / 上 的 作答 彼此 独立 ， 可 构建 对 数 边 际 似 然 函数 如 下 : 
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ny 2 
L(q;,8;,8;) zm ] Y Postis(a.) [GG dogP.(q;,g;,5;,0..) ) t (1 — Rj)log(1— P,(q,,8;,8;,0)) | s (16) 
=] c=1 


M-step 的 目的 在 于 最 大 化 公式 (16) 以 估计 新 题 /的 失误 参数 s 和 猜测 参数 8g,。 
EM 算法 依次 欠 代 E-step 和 M-step 直到 满足 预先 设 定 的 收敛 标准 。 

上 述 两 个 部 分 为 IGEOCM 对 新 题 2 矩阵 和 项 目 参数 的 标定 ， 其 标定 新 题 的 
具体 步骤 如 下 

步骤 1: 新 题 9 向 量 估计 。 对 于 新 题 j, 基于 作答 了 新 题 /的 被 试 的 属性 掌握 
模式 估计 值 及 其 在 新 题 } 上 的 作答 数据 , 计算 每 一 个 可 能 q 向 量 下 作答 数据 集 太 


IT TAE (Ria) AFER E (Rila; ) 值 对 应 的 g 向 量 作为 新 题 j 的 估计 4g 向量。 

步骤 2: 新 题 项 目 参数 估计 。 将 步骤 1 中 的 估计 9 向 量 作为 新 题记 的 真实 q 
向 量 , 基于 作答 了 新 题 7 的 被 试 的 属性 掌握 模式 后 验 分 布 及 其 在 新 题 7 上 的 作答 ， 
使 用 EM 算法 估计 新 题 的 失误 参数 和 猜测 参数 。 新 题 / 标定 完成 。 

步骤 3: 对 于 所 有 待 标定 的 其 他 新 题 ， 重 复 步 又 1 和 步骤 2 可 获得 新 题 的 O 
和 矩阵 估计 值 和 项 目 参 数 (失误 参数 和 猜测 参数 ) 估 计 值 ， 直 到 所 有 新 题 标定 完成 。 

IGEOCM 是 基于 特征 选择 的 视角 提出 的 在 线 标定 新 方法 。 该 方法 的 优点 在 
于 仅 需 获得 被 试 的 属性 掌握 模式 估计 值 以 及 被 试 在 新 题 上 的 作答 便 能 估计 新 题 
的 2 HERE, 是 一 种 非 参 数 化 的 方法 , 简单 易 懂 且 无 需 复杂 的 计算 ,此 外 , IGEOCM 
将 基于 非 参 数 化 方法 估计 的 9 向 量 作为 新 题 的 真实 q 向 量 直接 标定 新 题 的 项 目 
参数 ， 不 论 新 题 可 能 q 向 量 的 多 少 ，IGEOCM 均 只 需 估计 一 个 已 确定 q 向 量 下 
的 项 目 参 数 ， 可 有 效 节约 项 目标 定 的 时 间 ， 改 善 新 题 标定 的 效率 。 这 不 同 于 SIE 
方法 ， 其 需 估计 所 有 可 能 g 向量 下 的 项 目 参 数 ， 标 定 新 题 的 时 间 长 ， 标 定 新 题 的 
效率 低 。 


4 研究 1: IGEOCM 和 已 有 在 线 标定 方法 性 能 及 其 精度 验证 


4.1 实验 设计 


研究 1 则 在 考查 IGEOCM 在 不 同 标定 样本 (40、80、120、160、200)、 属 性 
掌握 模式 分 布 (均匀 分 布 、 高 阶 分 布 、 多 元 正 态 分 布 ) 和 被 试 作 答 新 题 个 数 D (4. 
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6、8) 下 标定 新 题 的 效果 , 并 将 其 与 SIE. SIE-R-BIC 和 RMSEA-N 方法 进行 比较 。 

标定 样本 指 作答 了 新 题 j 的 被 试 人 数 m = (NX D)/m ， 其 中 ，N 为 参与 CD-CAT 
的 被 试 总 人 数 ， 为 每 个 被 试 作答 新 题 的 个 数 ，m 为 待 标定 的 新 题 个 数 (Chen et 
al, 2015). 3X&ffÉ SIE, SIE-R-BIC 和 RMSEA-N 方法 作为 比较 方法 ， 主 要 原因 在 
于 其 新 题 标定 精度 略 优 于 JEA 方法 ， 具 有 一 定 的 代表 性 。 研 究 1 为 四 因素 实验 


设计 ， 共 5X3X3X4=180 种 模拟 实验 条 件 ， 每 种 实验 条 件 重复 实验 500 次 以 减 


少 随机 误差 。 


4.1.1 被 试 与 题库 模拟 


标定 样本 共 5 个 水 平 ，n; = 40, 80, 120, 160 和 200 ,被 试 属性 掌握 模式 分 别 从 


均匀 分 布 、 高 阶 分 布 和 多 元 正 态 分 布 WMYN(0, 呈 中 产生 。 在 均匀 分 布 路 ， 被 试 的 
属性 掌握 模式 从 所 有 可 能 的 属性 掌握 模式 中 以 均匀 的 概率 产生 ; 在 高 阶 分 布 中 ， 
被 试 i 是否 掌 握 第 个 属性 与 被 试 i 的 一 般 潜 在 能 力 0; 有 关 ， 能 力 为 0; 的 被 试 i 
掌握 第 个 属性 的 概率 为 


exp (Na(0; um Àa)) 
1+ exp (Albi —Aox)) ' mw) 


P (Qnl0;) = 


其 中 ， Ao. M Au 为 结构 参数 ， Ain > 0 o 研究 中 设置 天 =6 , 
à = (71, -0.6, -0.2,0.2,0.6, 1), HX PTA JETE k IJA Au =1.5, WA i AEA 
值 从 N(0,1) 中 产生 (de la Torre & Chiu, 2016); 在 多 元 正 态 分 布 中 ， 属 性 间 的 相关 
设置 为 0.5 (J. Chen, 2017). 

题库 模拟 包含 项 目 参数 (失误 参数 s: 和 猜测 参数 g) 的 模拟 和 项 目 O 算 阵 的 模拟 。 
题库 中 共 包 含 300 个 题目 ， 每 个 题目 最 多 测量 3 个 属性 ， 且 题库 中 测量 1、2 和 3 个 


属性 的 项 目 均 设 置 为 100 题 。 测 验 测量 属性 的 总 个 数据 =6， 则 共有 63 种 可 能 的 项 


目 q 向 量 , 其 中 测量 1 个 属性 的 项 目 q 向 量 个 数 为 6, 测量 2 个 属性 的 项 目 g 向 量 个 数 
为 15, 测量 三 个 属性 的 项 目 g 向 量 个 数 为 20。 将 测量 1 个 属性 的 6 个 项 目 q 向 量 重复 
16 次 并 从 其 中 额外 抽取 4 个 项 目 g 向 量 ， 测 量 2 个 属性 的 15 个 项 目 g 向 量 重复 6 次 并 


> 


从 其 中 额外 抽取 10 个 项 目 g 向 量 ， 测 量 3 个 属性 的 20 个 项 目 g 向 量 重 复 $ 次 ， 构 成 
300X6 的 临时 测验 CO 矩 阵 。 最 后 ， 对 临时 C 和 矩阵 中 的 所 有 行 随机 排序 以 获得 最 后 
的 O 和 矩阵 。 每 一 个 项 目的 失误 参数 ;和 猜测 参数 g 均 从 UU (0.05,0.25) 随 机 抽取 。 


4.1.2 新 题 模拟 


新 题 的 模拟 包括 新 题 失 误 参 数 s: 和 猜测 参数 g 的 模拟 以 及 新 题 O 和 矩阵 的 模拟 。 
研究 中 , 令 需 标定 的 新 题 个 数 m==24， 因 此 新 题 的 0 矩阵 是 一 个 24 x6 的 和 矩阵。 新 
题 测 验 2 和 矩阵 及 其 失误 参数 s 和 猜测 参数 g 的 模拟 均 与 题库 的 模拟 保持 一 致 。 


4.1.3 CD-CAT 模拟 与 新 题 标 定 


研究 使 用 定 长 的 终止 规则 ， 每 个 被 试 均 作答 20 个 旧 题 和 D 个 新 题 


(DD 二 4,6, 8 三 个 水 平 )。CD-CAT 的 模拟 过 程 如 下 : 


测验 开始 时 , 由 于 对 被 试 的 情况 一 无 所 知 , 因此 (1) 随 机 从 题库 中 抽取 一 个 项 
目 作为 被 试 的 初始 作答 项 目 ; (2) 模 拟 当 前 被 试 在 项 目 上 的 作答 , 并 通过 被 试 在 已 
作答 项 目 上 的 作答 使 用 MLE 估计 被 试 的 属性 掌握 模式 ，(3) 使 用 后 验 加 权 KL 
(Posterior-Weighted Kullback-Leibler, PWKL; Cheng, 2009) 选 题 策 略 从 剩余 题库 中 
挑选 最 适合 被 试 当 前 属性 掌握 模式 估计 值 的 项 目 作为 被 试 的 下 一 个 作答 项 目 。 重 

步骤 C2) 和 (3) 直 到 测验 长 度 达 到 预先 指定 的 标准 。 

在 CD-CAT 模拟 过 程 中 , 随机 从 待 标定 的 24 个 新 题 中 抽取 D 个 新 题 并 将 其 
置 于 被 试 测验 过 程 的 随机 位 置 。CD-CAT 测验 结束 后 ， 基 于 被 试 的 属性 掌握 模式 
估计 值 ， 属 性 掌握 模式 后 验 分 布 及 被 试 在 新 题 上 的 作答 ， 分 别 使 用 IGEOCM、 
SIE, SIE-R-BIC 和 RMSEA-N 方法 标定 新 题 的 O 矩阵 和 项 目 参数 。 


4.1.4 评价 标准 


属性 向量 正确 估计 率 (Attribute Vector Correct Estimation Rate, AVCER) 
AVCER 用 于 评估 新 题 O 算 阵 的 估计 正确 率 ， 其 表达 式 为 : 


500 m 


1 ine 
AVOER = sy xm Dy Dy = (18) 
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其 中 , rx 表 示 500 次 重复 模拟 实验 中 的 第 r 次 重复 实验 , 9 站 表示 第 r 次 重复 模拟 中 新 


题 ) 的 q 向 量 估计 值 ，g; 表示 新 题 /的 4 向 量 真 值 。T(ap = 二 gj) 为 指示 性 函数 , 用 于 评 


估 第 x 次 重复 模拟 中 644) 是 否 等 于 gq; 。 AVCER 值 越 大 , 新 题 O 和 矩阵 估计 正确 率 越 高 。 


近似 均 方 根 误差 (Root Mean Squared Error, RMSE) RMSE 指 标 用 于 评价 新 题 
项 目 参 数 的 佑 计 正 确 性 ， 其 表达 式 可 写 为 : 


1 Oy (ef " M " 
RMSE = nhm LE- 4 2,178) (19) 
Est, 3° METIKERE RAP, USUS Ms MME Beth 
计 值 ，s; 和 8g; 分 别 表示 新 题 j 的 失误 参数 s 和 猜测 参数 o 真 值 。 RMSE 值 越 小 ,项目 
参数 的 估计 精度 越 高 。 
标定 效率 : 即 平均 运行 时 间 (Average Running Time, ART) ART 用 于 评估 各 在 
线 标定 方法 的 标定 效率 ， 其 计算 如 下 : 


500 
3x 


— r=l 
ARDS aaa (20) 


其 中 , t, EAN RU, 各 在 线 标定 方法 标定 新 题 所 用 的 时 间 。ART 值 越 
小 ， 用 于 标定 新 题 的 方法 的 效率 越 高 。 


4.2 实验 结果 


图 1、 表 2 和 图 2 分 别 呈 现 了 标定 方法 SIE、SIE-R-BIC、RMSEA-N 和 IGEOCM 
的 项 目标 定 精 度 以 及 标定 效率 结果 。 根 据 Chen 等 人 (2015) 的 研究 ， 两 方法 间 标 定 
精度 的 差 值 大 于 等 于 1% 表 明 一 种 方法 优 于 另 一 种 方法 。 总 体 而 言 , IGEOCM 具 有 
较 好 的 项 目标 定 精 度 和 估计 效率 ， 其 性 能 整体 上 优 于 SIE、SIE-R-BIC 和 RMSEA- 
N 方 法 。 由 图 1 可 知 ，IGEOCM 的 2 矩阵 估计 正确 率 高 于 其 它 三 种 方法 ， 属 性 掌握 
模式 为 高 阶 分 布 和 正 态 分 布 时 , 各 方法 间 的 差异 更 为 明显 。 如 在 属性 掌握 模式 为 
均匀 分 布 时 ，SIE 方 法 和 IGEOCM 间 的 最 大 AVCER 差 值 为 2.3%， 而 在 属性 掌握 模 
式 为 高 阶 分 布 和 正 态 分 布 时 , 两 方法 间 的 最 大 AVCER 差 值 分 别 高 达 6.8% 和 9.1%。 


SIEAISIE-R-BICZ; 1X] OFF BE bn X FFE TER PE FIRAN, Tit RMSEA-N77 
法 在 高 阶 分 布 和 正 态 分 布下 的 O 和 矩阵 标定 正确 率 低 于 SIE 和 SIE-R-BIC 方 法 。 在 属 
性 掌握 模式 分 布 对 O 和 矩阵 标定 精度 的 影响 上 ，SIE、SIE-R-BIC、RMSEA-N 和 
IGEOCM 的 2 矩阵 估计 正确 率 在 属性 掌握 模式 为 均匀 分 布 时 最 好 ， 高 阶 分 布 时 次 
之 ， 正 态 分 布 时 最 差 。 例 如 ，IGEOCM 在 均匀 、 高 阶 和 正 态 分 布下 的 2 和 矩阵 估计 
正确 率 范围 分 别 为 80.9%~99.8%，67.0%~97.3% 和 46.0%~76.7%; 而 SIE 方 法 在 均 
匀 、 高 阶 和 正 态 分 布下 的 0 矩阵 估计 正确 率 范 围 分 别 为 79.0%~99.8%, 60.7%~96.9% 
和 38.4%~68.3%。 标 定 样本 对 各 在 线 标定 方 法 的 O 和 矩阵 估计 正确 率 影响 较 大 ， 标 
定 样 本 越 大 ， 各 方法 的 O 算 阵 估 计 正 确 率 越 高 。 当 标定 样本 nj = 40 时 ，SIE、SIE- 


R-BIC、RMSEA-N 和 IGEOCM 的 平均 AVCER 值 分 别 为 59.6%、60.0%、45.6% 和 


65.1%, 而 当 标 定 样本 mw = 200 时 ,4 种 方法 的 平均 AVCER 值 上 升 到 88.1%、88.2%、 


77.2% 和 91.2%。 因 此, 增加 标定 样本 可 提高 各 在 线 标定 方法 的 O 和 矩阵 估计 正确 率 。 
SIE、SIE-R-BIC、RMSEA-N 和 IGEOCM 方 法 在 被 试 作答 新 题 个 数 为 4、6 和 8 的 情 
况 下 均 具 有 相近 的 2 和 矩阵 估计 正确 率 。 

表 2 为 SIE、SIE-R-BIC、RMSEA-N 和 IGEOCM 的 项 目 参 数 标定 结果 。SIE 方 
法 和 IGEOCM 在 项 目 参 数 标定 精度 上 具有 相似 的 性 能 ， 其 最 大 RMSE 差 值 不 超过 
0.2%, 大 多 数 实验 条 件 下 两 方法 的 RMSE 值 相等 。 SIE-R-BIC 方 法 的 RMSE 值 在 标 


定 样本 较 少 时 略 低 于 SIE 方 法 和 IGEOCM (如 ，%n; = 二 40)， 在 标定 样本 较 多 时 略 高 


于 SIE 方 法 和 IGEOCM (如 ，m = 200); RMSEA-N 方 法 的 RMSE 值 在 多 数 条 件 下 都 


高 于 SIE、SIE-R-BIC 和 IGEOCM。 在 属性 掌握 模式 分 布 对 项 目 参 数 标 定 精度 的 影 
响 上 ，SIE、SIE-R-BIC 和 IGEOCM 的 项 目 参 数 标定 精度 在 属性 掌握 模式 为 高 阶 分 
布 时 最 好 , 而 RMSEA-N 的 项 目 参 数 标 定 精度 在 属性 掌握 模式 为 均匀 分 布 时 最 好 。 
如 IGEOCM 在 高 阶 、 均 匀 和 正 态 分 布下 的 平均 RMSE 值 分 别 为 0.056、0.066 和 0.071， 
RMSEA-N 在 高 阶 、 均 名和 正 态 分 布下 的 平均 RMSE 值 分 别 为 0.093、0.088 和 0.142。 


各 方法 的 项 目 参 数 标定 精度 随 标 定 样 本 的 增加 而 提升 。 如 ， 标 定 样 本 nj 二 40 时 ， 


SIE 方 法 和 IGEOCM 的 平均 RMSE 值 均 为 0.11， 而 当 标 定 样本 nj; = 200 时 ， 两 方法 


的 平均 RMSE 值 均 减 少 为 0.04。 与 0 和 矩阵 标定 精度 一 致 , 被 试 作答 新 题 个 数 对 SIE、 


SIE-R-BIC、RMSEA-N 和 IGEOCM 方 法 项 目 参 数 标定 精度 的 影响 可 忽略 不 计 。 

图 2 为 使 用 SIE、SIE-R-BIC、RMSEA-N 和 IGEOCM 方法 估计 24 个 新 题 的 
平均 运行 时 间 。 各 模拟 条 件 下 ,4 种 在 线 标定 方法 均 使 用 R4.0 运行 ， 其 计算 机 配 
置 相同 (如 Intel Core i5-8400 2.81GHz， 内 存 20G)， 因 此 各 标定 方法 的 估计 效率 
具有 可 比 性 。 由 图 2 结果 可 知 ， 相 比 于 IGEOCM，SIE、SIE-R-BIC 和 RMSEA- 
N 方法 的 估计 效率 更 低 ， 其 所 有 条 件 下 的 平均 ART 值 约 为 IGEOCM 的 49 fit. 
属性 掌握 模式 分 布 与 被 试 作答 新 题 个 数 对 SIE、SIE-R-BIC、RMSEA-N 和 
IGEOCM 的 估计 效率 影响 较 小 。 此 外 ,SIE、SIE-R-BIC、RMSEA-N 和 IGEOCM 
的 平均 运行 时 间 均 随 标定 样 本 的 增加 而 延长 。 当 标定 样本 nj 二 40 时 , SIE、SIE-R- 


BIC、RMSEA-N 和 IGEOCM 的 平均 ART 值 分 别 为 106.22、93.38、61.39 和 1.74, 


而 当 标 定 样本 = 200 时 , 4 种 方法 的 平均 ART 值 延 长 至 414.71、322.40、286.06 


和 6.91. 
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图 1 各 在 线 标定 方法 在 不 同 条件 下 的 AVCER( 属 性 向 量 估计 正确 率 ) 结 果 


表 2 各 在 线 标定 方法 在 不 同 条 件 下 的 RMSE( 均 方 根 误差 ) 结 


分 布 项 目 方法 40 80 120 160 200 


高 阶 4 SIE 0.090 0.060 0.048 0.041 0.036 


SIE-R-BIC 0.088 0.065 0.057 0.052 0.049 
RMSEA-N 0.132 0.099 0.086 0.079 0.073 
IGEOCM 0.090 0.060 0.048 0.041 0.036 
SIE 0.092 0.061 0.049 0.041 0.037 
SIE-R-BIC 0.089 0.066 0.057 0.053 0.050 
RMSEA-N 0.132 0.099 0.085 0.077 0.074 
IGEOCM 0.092 0.061 0.049 0.041 0.037 
SIE 0.095 0.060 0.048 0.042 0.037 
SIE-R-BIC 0.090 0.066 0.057 0.053 0.050 
RMSEA-N 0.132 0.098 0.085 0.078 0.074 
IGEOCM 0.095 0.061 0.048 0.042 0.037 
SIE 0.123 0.071 0.055 0.046 0.041 
SIE-R-BIC 0.097 0.068 0.057 0.051 0.047 
RMSEA-N 0.118 0.090 0.082 0.078 0.076 
IGEOCM 0.121 0.071 0.055 0.046 0.041 
SIE 0.121 0.069 0.053 0.045 0.039 
SIE-R-BIC 0.097 0.068 0.056 0.050 0.046 
均匀 

RMSEA-N 0.116 0.090 0.081 0.078 0.076 
IGEOCM 0.119 0.069 0.053 0.045 0.039 
SIE 0.122 0.071 0.054 0.046 0.040 
SIE-R-BIC 0.097 0.068 0.057 0.051 0.047 
RMSEA-N 0.116 0.090 0.082 0.078 0.076 
IGEOCM 0.121 0.071 0.054 0.046 0.040 
SIE 0.126 0.076 0.059 0.049 0.044 
SIE-R-BIC 0.099 0.073 0.064 0.058 0.055 
TE” RMSEA-N 0.170 0.149 0.138 0.130 0.123 
IGEOCM 0.126 0.076 0.059 0.049 0.044 
SIE 0.124 0.076 0.059 0.050 0.044 


SIE-R-BIC 0.098 0.073 0.064 0.058 0.055 


RMSEA-N 0.171 0.149 0.138 0.129 0.125 
IGEOCM 0.123 0.076 0.059 0.050 0.044 

SIE 0.129 0.079 0.059 0.049 0.044 

SIE-R-BIC 0.100 0.074 0.063 0.058 0.055 

i RMSEA-N 0.170 0.149 0.136 0.128 0.121 
IGEOCM 0.130 0.079 0.060 0.050 0.044 
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图 2 各 在 线 标定 方法 在 不 同 条件 下 的 ART( 平 均 运 行 时 间 ) 结 果 ( 单 位 : 秒 ) 


5 研究 2: 选 题 策略 对 IGEOCM 和 已 有 在 线 标定 方法 性 能 的 影响 


IGEOCM、SIE、SIE-R-BIC 和 RMSEA-N 方 法 基于 CD-CAT 测 验 中 被 试 属性 掌 
握 模 式 和 属性 掌握 模式 后 验 分 布 的 估计 值 以 及 被 试 在 新 题 上 的 作答 来 标定 新 题 ， 
被 试 属性 掌握 模式 及 属性 掌握 模式 后 验 分 布 的 估计 精度 影响 各 在 线 标定 方法 的 
标定 精度 (Chen et al., 2015)。 而 CD-CAT 中 ， 选 题 策略 是 影响 被 试 属性 掌握 模式 估 
计 精 度 的 重要 因素 之 一 。 因此, 研究 2 在 研究 1 的 基础 上 ， 进 一 步 考 察 选 题 策略 对 
各 在 线 标定 方法 性 能 的 影响 。 


5.1 实验 设计 


研究 2 的 实验 设计 和 模拟 过 程 与 研究 1 基本 一 致 , 但 研究 2 在 研究 1 的 基础 上 新 
增 了 MPWKL (the modified PVKL). GDI (the generalized deterministic inputs, noisy 


“and” gate (G-DINA) model discrimination index) #74 }j(Shannon entropy, SHE) 
选 题 策 略 (Cheng, 2009; Kaplan et al., 2015)， 以 比较 IGEOCM 和 SIE 方 法 在 不 同 选 
题 策 略 下 的 可 行 性 和 准确 性 。 由 于 SIE 和 SIE-R-BIC 方 法 的 项 目标 定 精度 略 高 于 
RMSEA-N 方 法 ， 且 SIE 方 法 的 项 目 参 数 标定 精度 在 多 数 条 件 下 均 略 高 于 SIE-R- 
BIC 和 RMSEA-N 方 法 。 另 外 ,三 者 在 标定 效率 上 差异 较 小 ， 均 耗 时 较 长 ART 比 
值 不 超过 1 倍 ), 因此 研究 2 中 仅 选 择 已 有 方法 SIE 作 为 新 方法 IGEOCM 的 比较 方法 。 
此 外 ,基于 研究 1 的 结果 , 被 试 新 题 作答 项 目 个 数 对 SIE 方 法 和 IGEOCM 项 目标 定 
精度 的 影响 较 小 ,研究 2 中 将 被 试 作答 新 题 的 个 数 固定 为 6(D==6)。 考 虑 到 SIE 方 
法 和 IGEOCM 的 运行 时 间 随 标定 样本 的 增长 而 延长 ， 因 此 研究 2 中 将 标定 样本 固 
定 为 40 以 缩短 实验 时 长 。 其 余 实 验 条 件 和 模拟 过 程 请 参见 研究 1。 


—= 


5.2 实验 结果 


表 3 为 SI 方法 和 IGEOCM 在 不 同 选 题 策略 和 不 同属 性 掌握 模式 分 布下 的 项 
目标 定 精 度 与 标定 效率 结果 。 与 研究 1 结果 相似 ， 相 比 于 SIE 方 法 ，IGEOCM 在 各 
选 题 策略 下 均 具 有 更 高 的 项 目标 定 精 度 和 项 目 估 计 效 率 。 此 外 , 在 所 有 选 题 策略 
下 ，SIE 和 IGEOCM 方 法 的 O 和 矩阵 估计 正确 率 在 属性 掌握 模式 为 均匀 分 布 时 最 好 ， 
高 阶 分 布 时 次 之 ， 正 态 分 布 时 最 差 。 

CD-CAT 选 题 策略 对 在 线 标定 方法 的 新 题 O 和 矩阵 标定 精度 有 一 定 影响 。 如 属 
性 掌握 模式 为 高 阶 分 布 的 情况 下 , SEE 方 法 在 选 题 策略 为 MPWKL 时 具有 较 高 的 O 
和 矩阵 标定 精度 , 其 AVCER 值 为 61.7%; SIE 方 法 在 选 题 策略 为 PWKL 时 具有 较 低 的 
9 和 矩阵 标定 精度 ， 其 AVECR 值 为 60.7%。 在 属性 掌握 模式 为 正 态 分 布 的 情况 下 ， 
IGEOCM 方 法 在 选 题 策略 为 GDI 时 具有 较 高 的 O 和 矩阵 标定 精度 ， 其 AVCER 值 为 
46.7%; IGEOCM 方 法 在 选 题 策略 为 PWKL 时 具有 较 低 的 O 和 矩阵 标定 精度 ， 其 
AVECR 值 为 45.4%。CD-CAI 选 题 策略 对 新 题 项 目 参 数 和 估计 效率 的 影响 可 忽略 
不 计 。 各 选 题 策略 下 的 RMSE 均 值 之 差 不 超 过 0.2%， 平 均 运 行 时 间 (ART) 较 为 接 
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E 


近 。 
K 3 SIE 方法 和 IGEOCM 在 不 同 条 件 下 的 项 目标 定 精度 与 标定 效率 结果 


AVCER RMSE ART 


方法 
PWKL MPWKL SHE GDI PWKL MPWKL SHE GDI PWKL MPWKL SHE GDI 


SIE 0.607 0.617 0.615 0.614 0.082 0.083 0.083 0.083 78.438 78.083 78.116 77.818 
IGEOCM 0.678 0.677 0.676 0.679 0.082 0.084 0.082 0.083 1.808 1.811 1.800 1.797 
SIE 0.809 0.807 0.814 0.808 0.089 0.090 0.090 0.089 90.388 89.742 90.421 89.702 
IGEOCM 0.828 0.827 0.831 0.825 0.089 0.090 0.090 0.089 1.861 1.846 1.857 1.845 
SIE 0.385 0.383 0.383 0.384 0.099 0.099 0.100 0.099 81.850 81.420 81.752 81.587 


IGEOCM 0.454 0.462 0.457 0.467 0.099 0.099 0.099 0.099 1.884 1.865 1.873 1.880 


6 总 结 与 讨论 


CD-CAT 中 同时 标定 新 题 2 和 矩阵 和 项 目 参数 的 在 线 标定 方法 较 少 ， 且 均 为 参 
数 化 的 方法 ， 标 定 新 题 的 时 间 较 长 ， 标 定 效率 较 低 。 因 此 ， 研 究 借鉴 数据 挖掘 中 
特征 选择 (Feature Selectiom) 的 思路 ， 提 出 了 基于 焙 的 信息 增益 的 在 线 标定 方法 
(IGEOCM), 以 期 为 CD-CAT 题 库 中 项 目的 增补 提供 一 种 更 为 高 效 、; 准 确 的 方法 。 
不 同 于 CD-CAT 中 已 有 的 在 线 标定 方法 ，IGEOCM 使 用 非 参数 的 方法 标定 新 题 的 
0 和 失 阵 ， 较 为 有 效 地 避免 了 项 目 参 数 估计 偏差 所 带 来 的 影响 ， 改 善 了 项 目标 定 的 
精度 ， 同 时 提高 了 项 目标 定 的 效率 。 随 后 ， 使 用 Monte Carlo 模 拟 研究 来 验证 
IGEOCM 的 可 行 性 和 准确 性 ， 并 将 其 与 已 有 在 线 标定 方法 SIE、SIE-R-BIC 和 
RMSEA-N 进 行 比较 。 研 究 结果 表明 : (1)IGEOCM 在 各 条 件 下 均 具 有 较 好 的 项 目 
标定 精度 和 项 目 估 计 效 率 ， 且 整体 上 优 于 SIE、SIE-R-BIC 和 RMSEA-N 方 法 。SIE 
等 方法 基于 新 题 项 目 参数 的 估计 值 来 估计 新 题 2 和 矩阵 ， 项 目 参 数 的 估计 误差 影响 
新 题 2 矩 阵 的 标定 精度 ， 继 而 降低 新 题 标 定 精度 ， 而 ITGEOCM 基 于 被 试 属性 掌握 
模式 及 其 在 新 题 上 的 作答 直接 标定 新 题 2 和 矩阵 ， 新 题 2 矩 阵 的 标定 与 项 目 参数 的 
估计 精度 无 关 ， 额 外 影响 因素 少 ， 新 题 标定 精度 更 高 一 些 。 此 外 ， 尽 管 SIE 和 
IGEOCMSIE 项 目 参 数 估 计 方 法 一 致 ， 但 SIE 方 法 使 用 参数 化 方法 标定 新 题 2 矩 阵 ， 
而 IGEOCM 方 法 使 用 非 参 数 化 方法 标定 新 题 O 和 矩阵 。 相 比 参 数 化 方法 ， 非 参数 化 
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方法 计算 更 为 简单 ， 运 行 时 间 更 短 (Chiu et al., 2018)， 因 此 IGEOCM 的 新 题 标定 
效率 较 好 一 些 。(2) SIE、SIE-R-BIC、RMSEA-N 和 IGEOCM 的 项 目标 定 精度 随 标 
定 样本 的 增加 而 提高 ，4 种 方法 的 运行 时 间 随 标定 样本 的 增加 而 延长 。(3) SIE、 

SIE-R-BIC、RMSEA-N 和 IGEOCM 在 属性 掌握 模式 分 布 为 均匀 分 布 和 高 阶 分 布 时 
的 项 目标 定 精 度 高 于 正 态 分 布 .(4) 被 试 作答 新 题 个 数 对 SIE、SIE-R-BIC、RMSEA- 
N 和 IGEOCM 项 目标 定 精 度 和 估计 效率 的 影响 较 小 。(5) CD-CAT 中 选 题 策略 影响 
SIE 方 法 和 IGEOCM 的 0 条 阵 标定 精度 。 在 属性 掌握 模式 为 高 阶 和 正 态 分 布 时 , 相 
比 PWKL 选 题 策略 ，SIE 方 法 和 IGEOCM 在 选 题 策略 分 别 为 MPWKL 和 GDI 时 的 O 
和 矩阵 标定 精度 略 高 。 此 外 ， 研 究 还 考察 了 属性 掌握 模式 为 高 阶 分布 时 不 同 的 和 ox 


和 入 模拟 方式 对 SIE 方 法 和 IGEOCM 的 影响 ， 即 Xw 从 标准 正 态 中 产生 和 Aik 从 对 
数 标准 正 态 分 布 中 产生 , 在 被 试 作答 新 题 个 数 固 定 为 6 其 余 条 件 与 研究 1 相同 的 
情况 下 : IGEOCM 在 该 模拟 方式 下 仍 优 于 SIE 方 法 。 该 结果 进一步 表明 IGEOCM 
的 可 行 性 其 及 优势 〈 具 体 数 据 结 果 参 见 附 表 1)。 

当然 ， 研 究 仍 有 许多 不 足 之 处 ， 今 后 研究 中 需 加 以 改进 与 完善 。 首 先 ， 文 中 
仅 验 证 了 所 提出 IGEOCM 在 DINA 模 型 下 的 性 能 , 其 在 较为 复杂 的 认 知 诊断 模型 ， 
如 缩减 重新 参数 化 融合 模型 (the Reduced Reparametrized Unified Model, RRUM; 


Hartz, 2002), 拓 广 DINA (the Generalized Deterministic Inputs, Noisy and Gate Model, 
G-DINA; de la Torre,2011) 等 模型 下 的 性 能 仍 有 待 进 一 步 探讨 。 不同 于 DINA 模 型 ， 
其 仅 将 被 试 分 为 掌握 与 非 掌握 两 个 类 别 。 在 更 为 复杂 的 模型 下 , 基于 被 试 属性 掌 
握 模 式 和 项 目 g 向 量 可 以 将 被 试 划分 为 更 多 不 同 的 类 别 ， 而 基于 粹 的 信息 增益 指 
标 会 随 着 被 试 所 划分 类 别 的 增加 而 增加 , 因此 在 更 为 复杂 的 认 知 诊断 模型 下 使 用 
基于 焙 的 信息 增益 指标 来 标定 新 题 9 向 量 的 效果 值得 探讨 。 未 来 研究 中 可 考虑 如 
何 解 决 被 试 类 别 数量 对 IGEOCM 的 影响 , 如 对 被 试 类 别 数 进行 惩罚 以 减少 类 别 个 
数 对 IGEOCM 的 影响 。 

其 次 ，CD-CAT 中 已 有 的 在 线 标定 方法 均 是 基于 二 级 计 分 模型 。 实 际 上 ， 心 
里 与 教育 评估 中 存在 大 量 的 多 级 计 分 数据 以 及 多 级 计 分 题目 , 且 相 比 于 二 级 计 分 
的 作答 数据 ,多 级 计 分 的 作答 数据 可 为 被 试 提供 更 为 全 面 详 尽 的 诊断 信息 。 文中 
所 提出 的 在 线 标定 方法 应 如 何 推广 到 系列 G-DINA 模 型 (sequential G-DINA model; 


Ma & de la Torre, 2016) 等 多 级 计 分 模型 之 中 ， 并 验证 其 在 多 级 计 分 模型 下 的 性 能 
21 


VH 


有 待 进一步 研究 。 

再 次 ,研究 为 每 个 被 试 随机 选择 新 题 ， 用 于 标定 每 个 新 题 的 被 试 可 能 并 非 最 
合适 的 被 试 。 未 来 研究 中 可 考虑 使 用 自 适 应 的 方法 来 为 每 个 项 目 选 择 最 合适 的 被 
试 ， 比 如 使 用 最 优 设计 准则 来 为 每 个 项 目 选择 最 佳 被 试 (He et al., 2020)。 然 后 考 
察 不 同 的 新 题 选择 方式 (随机 选择 和 自 适应 选择 ) 对 在 线 标定 方法 的 影响 。 

最 后 ,研究 假设 测验 所 测量 的 属性 之 间 相 互 独立 。 然而， 在 实际 的 诊断 测验 
中 ， 属 性 之 间 可 能 存在 各 种 层级 关系 ， 比 如 无 结构 型 、 线 型 、 分 支 型 和 收敛 型 
(Leighton et al., 2004)。 因 此 ， 未 来 研究 一 个 可 考虑 的 方向 是 探讨 不 同属 性 层级 关 
系 对 在 线 标定 方法 的 影响 。 另 外 ， 研 究 使 用 模拟 实验 验证 所 提出 的 O 和 矩阵 与 项 目 
参数 在 线 标定 方法 的 科学 性 与 合理 性 , 虽然 模拟 研究 的 结果 能 为 实践 应 用 提供 一 
定 指导 ,但 模拟 研究 是 在 理想 的 情境 下 进行 , 会 忽略 很 多 真实 情境 中 的 影响 因素 ， 
因此 未 来 研究 需 进一步 评估 真实 情境 中 各 在 线 标定 方法 的 性 能 。 总 之 ，CD-CAT 
中 同时 标定 新 题 2 矩 阵 与 项 目 参 数 的 在 线 标 定 方法 仍 需 进一步 的 研究 。 
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A High-efficiency and New Online Calibration Method in CD-CAT 


Based on Information Gain of Entropy and EM algorithm 


TAN Qingrong!, WANG Daxun!, LUO Fen!, CAI Yan!, TU Dongbo! 
(School of Psychology, Jiangxi Normal University, Nanchang 330022, China) 
Abstract 

Cognitive diagnostic computerized testing (CD-CAT) includes the advantages of both 
cognitive diagnosis (CD) and computerized adaptive testing (CAT), which can offer detailed 
diagnosis feedback for each examinee by applying fewer test items and time. It has been a promising 
field. An item bank is a prerequisite for the implementation of CD-CAT. However, its maintenance 
is a very challenging task. One of the effective ways to maintain the item bank is online calibration. 
Till now, there are only a few online calibration methods in the CD-CAT context that can calibrate 
Q-matrix and item parameters simultaneously. Moreover, the computational efficiency of these 
methods needs to be further improved. Therefore, it is crucial to find more online calibration 
methods that jointly calibrate the Q-matrix and item parameters. 

Inspired by the SIE (Single-Item Estimation) method proposed by Chen et al. (2015) and 
information gain feature selection criteria in feature selection, an information gain of entropy-based 
online calibration method (IGEOCM) was proposed in this study. The proposed method can jointly 
calibrate Q-matrix and item parameters in a sequential manner. The detailed process of the new 
items was described as follows: First, for the new item j, the q-vector can be calibrated by 
maximizing the information gain of entropy-based on the basis ofthe attribute patterns of examinees 
and the examinees’ responses to item j. Second, the item parameters of the new item j are estimated 
by the EM algorithm based on the posterior distribution of examinees' attribute pattern, the 
examinees' responses to item j, and the q-vector estimated in the first step. The first step and second 
step are repeated for all other new items to obtain their estimated Q-matrix and estimated item 
parameters item by item. Two simulation studies were conducted to examine whether the IGEOCM 
could accurately and efficiently calibrate the Q-matrix and item parameters of the new items under 
different calibration sample sizes (40, 80, 120, 160, and 200), different attribute pattern distributions 


(uniform distribution, higher-order distribution, and multivariate normal distribution), the different 
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number of new items answered by examinee (4, 6, and 8), and different item selection algorithms 
(posterior-weighted Kullback-Leibler, PWKL; the modified PWKL, MPWKL; the generalized 
deterministic inputs, noisy “and” gate model discrimination index, GDI; and Shannon entropy, SHE). 
Furthermore, the performance of the proposed methods was compared with the SIE, SIE-R-BIC, 
and RMSEA-N methods. 

The results indicated that (1) The IGEOCM worked well in terms of the calibration accuracy 
and estimation efficiency under all conditions, and outperformed the SIE, SIE-R-BIC, and RMSEA- 
N methods overall. (2) The accuracy of the item calibration increases as the sample size increases 
for all calibration methods under all conditions. (3) The SIE, SIE-R-BIC, RMSEA-N, and IGEOCM 
performed better under the uniform distribution and higher-order distribution than under the 
multivariate normal distribution. (4) The number of new items answered by the examinee had a 
negligible impact on the calibration accuracy and computation efficiency of the SIE, SIE-R-BIC, 
RMSEA-N, and IGEOCM. (5) The item selection algorithm in CD-CAT affects the Q-matrix 
calibration accuracy of the SIE and IGEOCM methods. Under the higher-order distribution and 
multivariate normal distribution, the SIE method and IGEOCM had higher Q-matrix calibration 
accuracy when the item selection algorithms were MPWKL and GDI. 

On the whole, although the proposed IGEOCM is competitive and outperforms the 
conventional method irrespective of the calibration precision or computational efficiency, the 


studies on the online calibration method in CD-CAT still need to be further deepened and expanded. 


Keywords Cognitive diagnostic computerized adaptive testing, Item replenishing, Online 


calibration, Q-matrix, Information gain of entropy 
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附录 : 


[5]11: 假设 被 试 的 属性 掌握 模式 已 知 且 呈 均匀 分 布 ， 被 试 在 新 题 ) 上 的 作 
答 不 存在 失误 和 猜测 。 值 得 注意 的 是 ， 由 于 作答 新 题 7 的 被 试 人 数 nj 以 及 每 个 被 
试 在 新 题 上 的 作答 在 所 有 可 能 的 q 向 量 下 都 是 固定 不 变 的 ， 灼 信息 增益 
9(R,,gq;) 中 作答 数据 集 R 的 炉 值 (Rj) 在 所 有 可 能 q 向 量 下 都 相等 ， 其 大 小 完全 取 


决 于 条 件 糯 BCRlo) 的 大 小 。 因 此 ， 本 例 中 主要 通过 描述 不 同 g 向 量 下 条 件 炉 


BE(Bjo) 的 改变 来 说 明 不 同 g 向 量 下 迷 的 信息 增益 9(Rzg) 的 改变 。 令 测验 测量 的 


属性 个 数 K=3， 则 共有 2” = 8 种 可 能 的 属性 掌握 模式 ， 每 一 种 属性 掌握 模式 的 期 


HE 


BABA n8 6 Airey ME Mg IR ER qz" = [1 00]， 对 于 DINA 模 型 ， 则 属 ! 


掌握 模式 为 [100]、[110]、[101] 和 [1 11] 的 被 试 将 被 划分 为 掌握 组 (h )， 而 属 


性 掌握 模式 为 [000]、[0 10]、[001] 和 [011] 的 被 试 将 被 划分 为 非 掌 握 组 Cho 5. 


由 于 被 试 的 属性 掌握 模式 为 均匀 分 布 , 掌握 组 hh 和 非 掌 握 组 中 的 被 试 人数 均 为 


nj2 (ng, = Min, = 4 X 15/8 二 ny/2)。 若 加 中 被 试 在 项 目 i 上 作答 错误 和 作答 正确 的 


人 数 分 别 为 wm 和 ma， 加 中 被 试 在 项 目 上 作答 错误 和 作答 正确 的 人 数 分 别 为 mio 


和 Njoi» 则 Nin = Njiro F jn 和 Tij, = Njoo + joi © 将 hı 中 每 种 属性 掌握 模式 的 被 试 在 


项 目 i 上 作答 错误 的 人 数 分 别 标 记 为 及 ,及 ,…,，ho 中 每 种 属性 掌握 模式 的 被 试 


在 项 HJE IER ABU SERIO WT, Th, roars o 则 


pze] 22, BLA) + BU) + + EU 


TV jn, nj 


了 


可 2 二 2X E[T] + ELT;] +--+ ET 
Trj, n; 


基于 被 试 在 新 题 / 上 的 作答 不 存在 失误 和 猜测 这 一 假设 ， 掌 握 组 中 每 种 属性 
掌握 模式 下 的 被 试 在 新 题 | 上 答 错 的 期 望 人 数 为 0， 即 
E[F] = E[F] =+ — E[F4] =0; 非 掌握 组 如 中 每 种 属性 掌握 模式 下 的 被 试 在 新 
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题 j} 上 答对 的 期 望 人 数 也 为 0， 即 B[T] = EIT] =-= ET] 二 0。 且 在 被 试 在 


BUB /上 的 作答 不 存在 失误 和 猜测 的 情况 下 ， — [an ig za — gom 


jh TU jn, To jn, To jn, 


(Chiu et al., 2018). WA, 


Nj10 = 2x4x0 一 0， Nji - 72710 1. 
Nn, nj TU jp, TU jn, 
Njoi 2 x 4 x 0 Njoo 72701 

= m 0, = 1 = 1. 
TU jh nj TV jn, TV jn, 


IRE ERa ) 可 计算 如 下 


E(Rjagj7") = E x (2 X log d | (Ba X log a | Pih y [Gs x log “at | (2n x log 22] 


nj Nin, Nin, Nn, Nn, n; Nih Nih jho Nih 


x [(0xlog0) + (1xlog1)] 


+ - x [(0x1og0) + (1x10g1)]| 


THU] 的 g qn] gd Rg = [0 1 1], 则 属性 掌握 模式 为 [0 1 1] 和 [11 1] 


的 被 试 将 被 划分 为 hh， 而 属性 掌握 模式 为 [0 00]、[100]、 [010]、[001]、 [1 


1 0] 和 [1 0 1] 的 被 试 则 将 被 划分 为 h 。 加 入 中 的 被 斌 人数 分 别 为 ny/4 


(ng, —2X nj/8 = nj/A) 和 3nj/4 (nj 二 6Xnj8 =3n,/4). LEN, RY q 向 


量 将 原本 在 新 题 7 上 作答 正确 的 掌握 组 被 试 错误 地 分 入 非 掌握 组 ， 被 错 分 入 非 
掌握 组 的 被 试 的 属性 掌握 模式 为 [1 0 0]. [1 1 0] 和 [1 0 1]， 这 些 模 式 的 被 试 在 新 
Ej EER EARE EIT] = EIT] — EUIS] = ny/8 ; 而 将 原本 在 新 题 j 


上 作答 错误 的 非 掌握 组 被 试 错误 地 分 入 掌握 组 ， 被 错 分 入 掌握 组 的 被 试 的 属 ! 
掌握 模式 为 [0 1 1], 该 模式 中 被 试 在 新 题 / TE AERA] UTE. AU ELE] = n8 o 
因此 ， 


HE 


4x | 1x0) + (x %)| 
N510 = ( ) 8 = ee Nji = N10 
Ti jn, nj TU jp, TU jp, 


= 0.5. 


4x | 3x0) + (5x %)| 
Mejor ey P eqs Iu qc (a 
TU jn, 3n; TU jn, To js, 
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E(RJqp m) = [-+ x [(0.5 x10g0.5) + (0.5 xlog0.5)]| n H x [(0.5 xlog0. 5) + (0.5 x log0. 5)] 
— 0.69 
由 上 述 例子 可 知 ， 在 新 题记 的 9 AEE, E(RJg-7c)Óx^h. HEA 0, Ut 


时 箭 的 信息 增益 9(CR9j) 达 到 最 大 。 因 此 ， 在 新 题 4 向 量 未 知 的 情况 下 ， 可 以 选 


择 能 使 炳 的 信息 增益 g(Rj,q)) 最 大 的 q 向 量 作 为 新 题 j 的 估计 g 向 量 。 


| 四 


附 表 1 不 同和 ,和 入 ;产生 方式 下 SIE 和 IGEOCM 方法 的 项 目标 定 精 度 


方法 40 80 120 160 200 
SIE 0.589 0.786 0.860 0.897 0.920 
条 件 1 
IGEOCM 0.641 0.823 0.885 0.913 0.938 
AVCER 
SIE 0.606 0.812 0.896 0.942 0.965 
条 件 2 
IGEOCM 0.668 0.857 0.916 0.950 0.966 
SIE 0.134 0.088 0.068 0.058 0.051 
条 件 1 
IGEOCM 0.132 0.085 0.069 0.060 0.052 
RMSE 
SIE 0.095 0.062 0.049 0.041 0.037 
条 件 2 
IGEOCM 0.095 0.062 0.049 0.041 0.037 


TE: 条 件 1 表示 Xe 和 Ar 分 别 从 正 态 分 布 和 对 数 正 态 分 布 中 产生 ; 条 件 2 表示 设置 


Ao = (71, -0.6, -0.2, 0.2.0.6,1)， 且 对 于 所 有 属性 大 均 有 Xux 三 1.5 。 
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